Storage
'Wat is storage?' Bij storage spreken we in deze context, van een medium om digitale data op te slaan. Dit kunnen verschillende mediums zijn, de meest gangbare zijn harde schijven, tape drives, cd en dvd-roms en flashgeheugen. Om nuttig te kunnen zijn hebben deze mediums de mogelijkheid om zowel te kunnen lezen als schrijven van data. Bovenstaande opslag mediums gebruiken elektriciteit om te functioneren, maar kunnen vaak wel zonder stroom hun data bewaren. In het geval van random acces memory (RAM) is dit niet het geval en dient er altijd spanning aanwezig te zijn. Data word opgeslagen in de vorm van bitjes (0 en 1). Binnen EIM gaat het vaak om een grote hoeveelheid data voor bedrijfsdoeleinden en archivering. In die situatie worden er vaak harde schijven gebruikt, omdat deze goedkoop en betrouwbaar zijn. Door verschillende harde schijven te combineren (zie hieronder) kunnen ze nog sneller of betrouwbaarder worden gemaakt. Vanaf 2002 word er meer data elektronisch dan analoog (o.a. papier) opgeslagen. Inmiddels is meer dan 97% van alle data wereldwijd digitaal opgeslagen. 'Storage Technieken ' 'RAID configuraties' Een ‘Redundant Arrays of Inexpensive Disks’ (RAID) is een uit de Jaren 80 stammende opslagtechniek voor het efficiënt gebruik van harddisk storage. De techniek was van origine bedoelt voor grote serverparken en mainframes, maar heden ten dage geniet de techniek ook populariteit bij (high-end) computer consumenten. De kosten voor opslag wogen bijna niet op tegen de noodzaak van opslag een aantal decennia geleden. De vraag naar betrouwbaarheid tegenover een lage prijs steeg explosief. Het grote nadeel van goedkope harde schijven was dat als zeer onbetrouwbaar werden ervaren. Het risico op dataverlies was te hoog en in veel gevallen natuurlijk ook onacceptabel. Tegenwoordig wordt het woord ‘Inexpensive’ in RAID vaak vervangen voor het woord ‘Independent’, een trend die aangeeft dat de prijs van HDD’s tegenwoordig maar een fractie zijn van de prijs in de jaren tachtig. RAID is ontstaan uit de praktijk van grote arrays van opslageenheden. Door opslag aan elkaar te knopen werd de opslagcapaciteit groter en kon deze als één logisch geheel benaderd worden. Interne hardwarematige controllers en software zorgen ervoor dat de data op de juiste plaatsen wordt opgeslagen en vindbaar is wanneer deze data benaderd moet worden. Er zijn twee zaken belangrijk om in acht te nemen in deze benadering van opslag: snelheid en veiligheid. Om deze twee begrippen af te dekken zijn er verschillende RAID opstellingen ontstaan met allen hun eigen mate van snelheid en veiligheid. De vuistregel hierin is vaak (niet altijd!): hoe sneller, des te onveiliger/duurder en hoe veiliger, des te langzamer/duurder. Binnen EIM is het belangrijk dat de gegevens die je opvraagt uit een opslageenheid kloppend en compleet zijn. RAID kan daarbij een grote rol spelen, vooral op het gebied van dataveiligheid. Echter moet niet uit het oog verloren worden dat snelheid weldegelijk een rol speelt bij effectief Enterprise Information Management. Bijvoorbeeld: een persoon zoekt een vakantie op een internetsite en stelt zijn eigen reis samen. Het moet dan niet zo zijn dat elke handeling of keuze een half uur verwerkingstijd kost. Een goede RAID opstelling die een database host kan er voor zorgen dat elke vraag van de klant snel wordt afgewerkt. Alvorens de verschillende RAID types worden toegelicht is het belangrijk om te bepalen hoe de keuze voor een bepaald RAID type tot stand komt. Bij een beslissing binnen het EIM domein is het belangrijk om te kijken naar de ‘waarde’ van data. Zo zijn gegevens van rekeninghouders binnen een grote bank van veel grotere waarde dan een paar .mp3 bestandjes op een NAS thuis. Een gamer wil vooral een snel systeem en zal minder aandacht besteden aan recovery en een politiedatabase moet vooral kunnen zorgen voor opslag voor langere tijd. Het is dus een afweging tussen snellheid en veiligheid en daarbovenop komen ook nog de financiële overwegingen. Hieronder zijn per RAID type de benaming, aantal disks, voor –en nadelen en het kostenniveau aangegeven. Tevens is bij een aantal een voorbeeld aangegeven voor een toepassingsgebied. RAID 0 Striping (strepen) Alle data wordt per blok parallel naar alle aanwezige disks (binnen het RAID) geschreven. Er vindt geen duplicatie van data plaats en de totale eenheid van opslag is zo groot als de totale opslagcapaciteit van alle disks binnen de RAID bij elkaar. Er is bij dit type RAID geen capaciteitsverlies. Het minimale getal van disks moet twee of een groter even aantal zijn. V: Snelste RAID opstelling tegen de laagste prijs die je kunt hebben. Deze opstelling is vooral voor gamers erg interessant vanwege zeer grote performancewinst t.o.v. reguliere diskopstellingen. Tevens kan het bij deze opstelling zeer voordelig uitpakken om twee langzame (goedkope) schijven te gebruiken. N: Totaal geen betrouwbaarheid aanwezig. Bij het crashen van 1 schijf binnen de gehele RAID 0 opstelling zal alle (!) data verloren zijn. De specifieke datablokken die op de gecrashte schijf staan zijn verloren en daardoor zijn ook alle andere datablokken onbruikbaar. RAID 0 zal binnen professionele instellingen niet gebruikt worden vanwege de uiterst lage betrouwbaarheid en geen mogelijkheid tot ‘Hot swap’. RAID 1 Mirroring (spiegelen) Een redelijk eenvoudige en veelgebruikt RAID type dat een behoorlijke betrouwbaarheid waarborgt. Alle data wordt op alle disks binnen de RAID opgeslagen. Elk stukje data is dus minimaal twee maal opgeslagen. Het minimale getal van disks moet twee of een groter even aantal zijn. V: Grote betrouwbaarheid over de opgeslagen data, er is altijd minimaal één duplicaat aanwezig. RAID 1 kan dan ook als een back-up methode worden gezien. Tevens is RAID 1 nog redelijk goedkoop en vooral ook zeer gemakkelijk te configureren. Het vergt van de controller weinig extra performance. N: Geen snelheidswinst t.o.v. de gevoerde snelheid van elke disk binnen de RAID. De capaciteit van RAID 1 is even groot als de capaciteit van de kleinste disk binnen de RAID. Gebruik je één disk van 500 GB en één disk van 1000 GB binnen RAID 1, dan zal de totale capaciteit maar 500 GB zijn. Het is aan te raden om een RAID 1 opstelling zodanig op te zetten dat je zo min mogelijk capaciteit ‘weggooit’. RAID 1 kan goed dienst doen voor kleine opslagvolumes die wel grote betrouwbaarheid moeten genieten. RAID 2 Bit Level Striping (Strepen op Bit-niveau) Qua voor –en nadelen gelijk aan RAID 0 en is theoretisch zelfs sneller dan RAID 0. Het minimaal benodigd aantal disks is 3. Op de 3e disk komen de zogenaamde Error Correction Codes (ECC’s). Deze RAID methode wordt zo goed als niet meer gebruikt binnen moderne opslagsystemen, vooral omdat HDD’s en SSD’s tegenwoordig zelf ECC functionaliteiten bezitten. RAID 2 is redelijk duur, bied weinig voordelen en is hoogstens toepasbaar om als hobby project op te zetten. De opslagcapaciteit is de totale opslag van de striped disks. RAID 3/4 RAID 3 is Bytes striped en RAID 4 is Blocks striped, beide qua werking gelijk. Dit type RAID is de veiligere versie van RAID 0 en zit technisch ingewikkelder in elkaar. De minimale hoeveelheid disks is 3, waarbij er twee gebruikt worden voor striped data en één voor Pariteits gegevens. Deze Parity data kan zorgen voor de herstel van data wanneer er één van de striped disks uitvalt. De RAID controller rekent op basis van de pariteit data uit wat de data op de striped disks is en zal deze data herproduceren. V: Redelijke betrouwbaarheid. Geen gegevensverlies bij crashen van maximaal één disk. Goede snelheden bij sequentiële data, dus ideaal voor het streamen van videobeelden en grote afbeeldingen. De kosten van dit type RAID zijn gemiddeld t.o.v. andere types. N: Langzaam bij niet-sequentiële data, dus slecht bruikbaar bij opslageenheden voor databases en transactieservers. Geen hot-swap functionaliteit en benadering van de opslageenheid is niet mogelijk wanneer nieuwe data op basis van pariteit wordt berekend. De schijven moeten een gesynchroniseerde rotatie hebben voor de juiste werking. RAID 4 en 5 worden beide vrijwel niet gebruikt. RAID 5 Striping with rotating partity (Blokken Strepen met roterende partiteit) Redelijk identiek aan RAID 4 omdat deze soort ook werkt met datablocks en niet met bytes. Bij dit RAID type zijn ook minimaal 3 drives nodig. Vanwege wat voordelen t.o.v. RAID 4 wordt dit type wel veel toegepast. Bij dit type wordt niet één disk als partiteit disk gebruikt, maar worden verschillende partiteits bestanden verdeeld over de striped disks. V: Goede betrouwbaarheid met de snelheid van striping. Grotere opslagcapaciteit omdat niet één schijf uitsluitend voor partiteit wordt gebruikt (dit hangt echter wel af van de gekozen groottes van de schijven). N: Minder snel dan normaal striping en redelijk moeilijke configuratie. Er kan maar één schijf uitvallen. RAID 6 Striped Blocks with double rotating partity (Blokken strepen met dubbele roterende partiteit) Qua werking identiek aan RAID 5, echter worden de partiteit data dubbel over de schijven verdeeld. De partiteit data is dus dubbel aanwezig op 2 verschillende schijven. Deze techniek wordt veel toegepast vanwege grote betrouwbaarheid. V: Zeer grote betrouwbaarheid en goede snelheid. Er kunnen twee disks uitvallen zonder dataverlies. N: De zelfde nadelen als RAID 5, echter is de capaciteit wat kleiner vanwege de dubbele pariteit. RAID 7 Officieel bestaat RAID 7 niet en wordt ook vaak verward met RAID 6 omdat RAID levels beginnen bij level 0. RAID 7 wordt alleen gebruikt voor specifieke toepassingen, meestal van dezelfde organisatie die RAID 7 op ‘de markt’ heeft gebracht. Technisch heeft het wat verbeteringen tegenover RAID 3 en 4 maar is volgens veel publicaties een stuk duurder. Nested RAID Levels zoals RAID 1+0 (10) Bij nested RAIDS combineer je 2 of meer RAID levels met elkaar, je combineert daarbij vaak het beste van twee werelden met elkaar (snelheid en hoge betrouwbaarheid). Het is bijvoorbeeld gebruikelijk om twee RAID 0 (striping) opstellingen naast elkaar te laten draaien en te benaderen als een RAID 1 opstelling (mirroring). Je haalt dan de snelheid van RAID 0 maar je bent er ook van verzekerd dat alles minimaal 2 keer is opgeslagen. De kosten zijn door het grotere aantal disks wel vele male hoger. JBOD Just a Bunch of Disks (‘Gewoon een aantal schijven’ of ‘een hoopje schijven’) JBOD heeft weinig met RAID te maken, echter het aspect van aan elkaar knopen van schijven gebeurt hierbij ook. Data wordt naar disk 1 geschreven en als deze vol is dan wordt er geschreven naar disk 2 enzovoorts. Er is speciale software die er voor zorgt dat dit zorgvuldig gebeurt en is ideaal voor storage van zaken die niet veel waarde hebben. 'Meta data' Metadata is ‘informatie over informatie’ of ‘data over data’. Het is in ieder geval op internet de meest gebruikte omschrijving van het begrip. Metadata is, tegen veel verwachtingen in, niet iets nieuws en stamt zeker niet alleen uit de wereld van ICT. De data die in een bedrijf verwerkt wordt tot informatie heeft een bepaalde waarde, deze waarde geeft aan wat het belang is van die data voor het bedrijf. Elk stukje informatie heeft naast die waarde nog een aantal eigenschappen of requirements aan zich hangen. Zo is het voor een bepaald gedeelte van de data belangrijk om snel opvraagbaar te zijn (zie RAID) en voor een ander gedeelte is het belangrijk dat data goed beveiligd is (of een combinatie van beide). Ongeacht de eisen die een bepaald stuk informatie nodig heeft, is de vindbaarheid daarvan van wezenlijk belang. Omdat informatie binnen een bedrijf vaak afkomstig is uit verschillende (geautomatiseerde) informatiesystemen en behandeld wordt door meerdere functionarissen, komt het significant vaak voor dat bijvoorbeeld naamgevingen of bestandsformaten inconsistent zijn. Door een extra label aan elk stukje data te hangen is het beter mogelijk om de juiste informatie te vinden, te hergebruiken, te routeren, de status van in te zien en te rapporteren. Dat extra label wordt dan de metadatering genoemd en kan verschillen van een simpele omschrijving tot een compleet label met alle benodigde informatie. Een groot deel van dagelijks gebruikte middelen bevatten metadata, vaak gekoppeld aan de gebruiker of voor terugkoppeling naar de fabriek of dienstenleverancier. Bijvoorbeeld: op je bankpas staat een pasnummer, dit nummer wordt gebruikt voor een aantal doeleinden. Bij de administratie van de bank is het nummer bekend omdat een bepaalde pas gekoppeld is aan een klant. Voor de bank is het ook een extra methode van beveiliging bij het inloggen bij internetbankieren (Rabobank). Voor de gebruiker heeft het nummer weinig toevoegende waarde, en is voor de gebruiker vooral het rekeningnummer en de pincode van belang. De hoeveelheid metadata en de detaillering daarvan is per situatie verschillend. Bijvoorbeeld: voor een projectplan is de status heel belangrijk maar voor een foto weer niet, daarvan is bijvoorbeeld de datum dat de foto is genomen heel belangrijk. De overwegingen over de hoeveelheid en detaillering van metadata zijn sterk afhankelijk van de keuzes van een informatiemanager of het beleid in de betreffende organisatie. Essentieel is Metadata te verdelen in 2 types: beschrijvende en component metadata. In veel situaties wordt ook nog een 3e type metadata genoemd, de technische metadata. Hieronder zijn ze alle drie toegelicht: 1. Beschrijvende metadata (ook wel publicatie metadata genoemd) Beschrijven van het informatieobject en het identificeren van het informatieobject. De herkomst en de context van een informatieobject wordt geïdentificeerd. Algemeen bekende voorbeelden van beschrijvende metadata: datum, titel/naam, opdrachtgever, projectnaam etc. 2. Component metadata (ook wel Administratieve metadata genoemd) Vooral van belang voor het terugvinden van informatieobjecten en om deze eventueel te hergebruiken of om de status te rapporteren, te escaleren of te volgen. Bijvoorbeeld: status (geaccepteerd, review, afgekeurd, concept), aanmaak datum, datum laatste aanpassing, wie heeft laatste aanpassing uitgevoerd, ondertekening etc. 3. Technische metadata (minder gebruikelijk binnen het EIM domein) Technische metadata is moeilijk abstract te scheiden van de andere twee metadata types. Technische metadata heeft veel gemeen met component metadata, maar gaat op specifieke (technische) zaken dieper in. Denk hierbij aan de resolutie van een scan, bestandsformaat/codec, benodigde software, virusrapport, 'Dataverwerking' Anno 2015 worden steeds meer informatie vast gelegd in databases. Voor veel bedrijven is het een uitdaging om te bepalen welke data wel of niet opgeslagen moet worden. Immers meer data, kost meer opslag kosten, maar kan eventueel op lange termijn wel weer een sterkere concurrentie positie opleveren. Rapportage Door deze enorme toename van de data in databases wordt het ook steeds lastiger om data efficiënt te verwerken. Een goede architectuur van de database wordt daarom steeds belangrijker, maar vooral ook het goed bijhouden wie en waarom bepaalde data wordt geraadpleegd. Zo hoeft niet ieder rapport gemaakt te worden met real life data. Als iemand een rapport moet maken over het afgelopen maand of afgelopen half jaar. Kan dit goed met een copy van de data. Je ziet daarom ook vaker dat een deel van de data in extra tabellen of in een losse database wordt gekopieerd. Deze extra database is dan bedoeld voor rapportages die niet de meest actuele data nodig hebben. Op deze manier wordt de hoofd database niet zo zwaar belast en kan iedereen toch bij de data die hij of zij nodig heeft. Hierdoor wordt het uiteindelijke proces sneller en stabieler. Wetten en plichten omtrent storage Voor specifieke branches gelden bepaalde wetten met regels over de opslag van gegevens in databases, archieven en back-up systemen. Vooral (semi)overheidsinstellingen zoals scholen, politie, zorg gerelateerde instellingen en nog vele andere moeten zich houden aan zeer strikte wetgeving. Maar ook de bankensector en plaatsen waar met gevoelige (klant)gegevens wordt gewerkt zijn vaak wetten van toepassing. In dit gedeelte van de wiki gaan we in op een aantal van deze wetten en plichten bij het opslaan, archiveren en gebruiken van gegevens. Binnen de Nederlandse grenzen is de belangrijkste wetgeving vooral gebaseerd op privacy vraagstukken. Eén van de belangrijkste grondrechten in Nederland is het recht op privacy (Artikel 10 van de Nederlandse Grondwet). In principe heeft deze wet eigenlijk weinig met IT te maken, al heeft deze wet zeer veel invloed op de manier hoe er met informatie om gegaan moet worden. Informatie wordt in de meeste gevallen gegenereerd en beheerd door automatische systemen, dat is dus automatisch het vakgebied van IT. In de Verenigde Staten is privacy ook een groot issue, maar dan juist naar de andere kant van diezelfde munt. Sinds de aanslagen van 11 september 2001 is vrijwel elke schending van privacy door overheidsinstellingen gevrijwaard. De overheid is in dat land eigenlijk mede-eigenaar van alle informatie van bedrijven én particulieren. Dit is een situatie waar Europese landen natuurlijk van gruwelen, vooral de Patriot-act is een gevreesd onderdeel van de Amerikaanse wetgeving als het gaat om privacy. 'SOx' Verschillende grote financiële schandalen in de Verenigde Staten zorgden er voor dat er zeer strenge wetgeving kwam omtrent informatiebeveiliging. Wanneer een bedrijf aangesloten wil zijn bij de New York Stock Exchange (NYSE) dient deze te voldoen aan de SOx regels. De Serbanes-Oxly act is vernoemd naar twee politieke figuren uit de Verenigde Staten en is sinds 2002 ingesteld. Een aantal Nederlandse internationaal georiënteerde bedrijven (onder andere Ahold) dienen aan deze wet te voldoen, deze bedrijven zijn namelijk ook aangesloten bij de NYSE. Het niet naleven van deze wetgeving kan voor bestuurders van bedrijven betekenen dat ze gevangenisstraffen uit moeten zitten of torenhoge boetes moeten betalen. IT en ECM neemt binnen de SOx act een speciale rol in, het belangrijkste onderdeel van de wet is namelijk de Interne Controle (IC). IT is één van de belangrijkste productiefactoren binnen een bedrijf, dus daar wordt een aanzienlijk deel van het bedrijfsbudget aan toegewezen. SOx gaat juist over de verantwoording van de investeringen en ook het gebruik van de middelen wanneer deze aanwezig zijn. Veranderingen en investeringen in de IT omgeving van een bedrijf moeten onderbouwd en eventueel gerapporteerd worden aan de overheid. De beschikbaarheid van financiële gegevens moeten gewaarborgd zijn ook al heeft het bedrijf grote continuïteisproblemen. 'Wetten in Nederland' Nederland staat bij de eigen burgers bekend als het land met de vele regeltjes en wetten; ook in Nederland zijn voor specifieke bedrijven in specifieke branches wetten van toepassingen. Hieronder vallen ook een aantal internationale wetten. In de Wiki belichten we kort twee relatief bekende wetten: 'Archiefwet (1995') De Archiefwet is van toepassing op overheidsinstellingen en andere publieke organisaties, daaronder vallen dus ook onderwijsinstellingen zoals het hbo onderwijs. Zo moeten diploma’s volgens de Archiefwet minimaal twintig jaar bewaard worden. De Archiefwet maakt geen onderscheid in een digitale of papieren vorm van archiveren, beide vormen zijn rechtsgeldig. Ook mogen van origine papieren documenten gedigitaliseerd worden, dan dient wel het origineel vernietigd te worden. Het verschil tussen de Archiefwet en de WBP is in het bijzonder de manier van omgang met persoonsgegevens bij de WBP. De WBP geldt voor alle organisaties, de Archiefwet alleen voor overheidsinstellingen/publieke organisaties. Bijvoorbeeld leerling-data moet minimaal twee jaar bewaard worden nadat een leerling de school verlaten heeft. 'Wet bescherming persoonsgegevens' De Wet Bescherming Persoonsgegevens is ‘de’ wet als het gaat over de omgang met informatie en het waarborgen van privacy. Veel informatie in bijvoorbeeld een onderwijsinstelling is privacygevoelig. Leerlingvolgsystemen, toetsingsgegevens, beoordelingen, profielen etc. Ook de gegevens van de medewerkers van een onderwijsinstelling vallen hieronder. Alle data met een persoonlijke noot valt onder deze WBP die is ingegaan in 2001 en waarvan het College Bescherming Persoonsgegevens (CBP) de controlerende macht is. Binnen verwerkingseis 7 valt informatiebeveiliging (artikel 13), deze bestaat uit 14 categorieën met aandachtsgebieden voor allerlei zaken die verwant zijn met informatiebeveiliging.